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Что нужно для прогноза? 
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Что нужно для прогноза? 
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Что нужно для прогноза? 
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Допушения 


1. Наша архитектура - огонь! 


2. Поведение пользователей не хаотично 
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Допушения 


1. Наша архитектура - огонь! 
2. Поведение пользователей не хаотично 


3. 20% компонентов потребляют 80% 
ресурсов 
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Как искать емкость? 
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Тестирование перед релизом 


У Быстро 
У Безопасно 


У Показательно при правильной организации 
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Тестирование перед релизом 
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Тестирование перед релизом 


О: Так себе решение, хотим что-то получше 


А: Давайте тестировать непосредственно в 
production 
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Что нам понадобится? 
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Что нам понадобится? 


e Управление трафиком 
e Service Level Objectives (SLO) 
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Нагрузка синтетикой 
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Нагрузка синтетикой 


О: Как избавиться от минусов решения? 
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Нагрузка синтетикой 


О: Как избавиться от минусов решения? 
А: Будем прогружать пользовательским 
трафиком 
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Пользовательская нагрузка 
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Пользовательская нагрузка 


Площадка №1 | Площадка №2 | Площадка №3 
QNO, 

Запросы р Е РС" 10% 

пользователей 


38 O- 


Пользовательская нагрузка 
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Х Трафик ограничен 
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Пользовательская нагрузка 


О: Что делать с дефицитом пользовательской 
нагрузки? 
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Пользовательская нагрузка 


О: Что делать с дефицитом пользовательской 
нагрузки? 

А: Будем тестировать по одному инстансу от 
компонента. Емкость будем измерять в 
“запросах в секунду” (КР5). 


"А HighLoad+ 
HL Весна 2021 


Пользовательская нагрузка 


О: Что делать с изменением структуры 
трафика во времени? 


ТА HighLoad+ 
HL не До» 


Пользовательская нагрузка 


О: Что делать с изменением структуры 
трафика во времени? 
А: Будем тестировать непрерывно (24х7)! 


ТА Нен сас 
HL не До» dá 


Непрерывное тестирование 


Запросы 
пользователей 1 Р а 
(М КР5) 


46 HL HighLoad+ 


Непрерывное тестирование 


Запросы 
пользователей | КР5 4 7 
(М КР5) M-N А129 


47 HL HighLoad+ 


Непрерывное тестирование 
| Владелец 

е 
a | RPS P iwas, 4 г. 


Балансер 


Емкость компонента, КР5 = 
«Ёмкость инстанса №1» * 7 


Запросы 


48 (на) HighLoad+ 


Непрерывное тестирование 


"А Нан ога 
Вы 


Непрерывное тестирование 


Текущая нагрузка b ЗАИР 4 Емкость 


компонента 


Ан Load 
н Е" 


Непрерывное тестирование 


Утилизация м 
Емкость 
компонента 


ТА Ненгоасн+ 
HL) писа 


Непрерывное тестирование 


Утилизация 
+ Прогноз 4 


потребности 


Емкость 
компонента 


в ресурсах 


++ 
HighLoad 
HL) ea 


Непрерывное тестирование 


Детали реализации 


Непрерывное тестирование 


А 
= Оа 
М КР5 


Ан Load 
HO a 


Непрерывное тестирование 


а 


ПЕ 


Аи А. < =» 


T RPS 


= на) Ненова“ 


Непрерывное тестирование 


Эталонные инстансы 


Инстанс №2 Инстанс №3 Инстанс №7 
| RPS чые t 


M-N 
RPS метриками 


Сплиттер 


K HighLoad 
(нуч 


Что входит в метрики? 


ТА HighLoad+ 
HL не До» 


Что входит в метрики? 


e RPS 


ТА HighLoad+ 
HL не До» 


Что входит в метрики? 


e RPS 


e Квантили таймингов 


ТА Нен оа9 
59 ме 


Что входит в метрики? 


e RPS 
e Квантили таймингов 


e Ошибки в различных разрезах 


++ Є d 
во сори 


Непрерывное тестирование 


Эталонные инстансы 


Инстанс №2 Инстанс №3 Инстанс №7 
| RPS чые t 
а». КР5 метриками 
| RPS 


Сплиттер 


M-N 
RPS 


61 ÇH) Нено 


Непрерывное тестирование 


O RPS 


жр RPS метриками 


Читаем метрики 


Управляющий 


контур 


62 


ТА Нан ога 
(нуч 


Непрерывное тестирование 


O RPS 


жр КР5 метриками 


Сохраняем значение М 


M-N 
RPS 


Меняем значение N Управляющий 
Сплиттер ---- на контур 


63 Or- 


Непрерывное тестирование 


Эталонные инстансы 


Инстанс №2 В Инстанс №3 | Инстанс №7 
| RPS —— 


База c 
метриками 


Читаем метрики 


Управляющий 
контур 


Сплиттер 


ва (а) несе 
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Управляющии контур 


e Собираем достаточный набор метрик 
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Управляющии контур 


e Собираем достаточный набор метрик 


е. Если инстанс под нагрузкой не показывает 
деградацию – повышаем N 
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Управляющии контур 


e Собираем достаточный набор метрик 


е. Если инстанс под нагрузкой не показывает 
деградацию - повышаем N 


е. Если показывает деградацию - понижаем N 
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Управляющии контур 


e Собираем достаточный набор метрик 


е. Если инстанс под нагрузкой не показывает 
деградацию – повышаем N 


е. Если показывает деградацию - понижаем N 
е. Если есть сомнения - не делаем ничего 
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Тестируемый и эталонные инстансы 


Емкость компонента на графиках 


Утилизация текущей ёмкости, 35 


Все локации = Без1 ДЦ 
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О: Что можно еше улучшить? 
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Непрерывное тестирование 


О: Что можно еще улучшить? 

А: Есть ресурсы под отдельную площадку для 
компонента? Поднимем там «теневой 
инстанс». Копируем на него трафик. Ответы 
игнорируем. 
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Емкость компонента, RPS = 
«Ёмкость теневого 
инстанса» * 7 


Запросы 


Когда методика не работает 
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Когда методика не работает 


e На сервисах, для которых тайминги - не 
главное 
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Когда методика не работает 
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На сервисах, для которых тайминги - не 
главное 


Когда тайминги настолько критичны, что 
любое их колебание недопустимо (тут 
поможет теневой инстанс) 


(НЕ) HighLoad” 


Когда методика не работает 


e На сервисах, для которых тайминги - не 
главное 

е. Когда тайминги настолько критичны, что 
любое их колебание недопустимо (тут 
поможет теневой инстанс) 


е Когда трафика на локации недостаточно для 
того, чтобы загрузить несколько инстансов 
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Service Level Objective 


e Несколько разных SLO на компонент. 
Например, типовые запросы или разные 
квантили 
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Service Level Objective 
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Например, типовые запросы или разные 
квантили 

• SLO для capacity тестирования жёстче, чем 
SLA для пользователя на 10% и более 
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Service Level Objective 


e Несколько разных SLO на компонент. 
Например, типовые запросы или разные 
квантили 


• SLO для capacity тестирования жестче, чем 
SLA для пользователя на 10% и более 


e Регулярно уточняйте SLO 
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Управляющий контур 


e Собираем достаточный набор метрик 


е. Если инстанс под нагрузкой не показывает 
деградацию - повышаем N 


e Если показывает деградацию — понижаем N 


е. Если есть сомнения - не делаем ничего 


86 (нее 


Достаточнь набор метрик 


Как собираем? 
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Достаточнь набор метрик 


e Собираем на интервалах не уже, чем 
стандартный таймаут ответа сервиса, 
например, 1 раз в минуту 
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Достаточный набор метрик 


e Собираем на интервалах не уже, чем 
стандартный таймаут ответа сервиса, 
например, 1 раз в минуту 


e Необходимо несколько интервалов, 
например, 5 
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Достаточный набор метрик 


e Собираем на интервалах не уже, чем 
стандартный таймаут ответа сервиса, 
например, 1 раз в минуту 


e Необходимо несколько интервалов, 
например, 5 


e Отсекайте шум медианой 
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Управляющий контур 


e Собираем релевантный набор метрик 


е. Если инстанс под нагрузкой не показывает 
деградацию - повышаем N 


e Если показывает деградацию — понижаем N 


Если есть сомнения - не делаем ничего 
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Когда сомневаться? 
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Когда сомневаться? 


e Мало трафика 
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Когда сомневаться? 


e Мало трафика 


e Деградация эталонных инстансов 
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Когда сомневаться? 


e Мало трафика 
e Деградация эталонных инстансов 
e Ночь. Вам точно нужны ночные результаты? 
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Безопасный КР5 


Что это? 
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Безопасный КР5 


е Зафиксируйте и регулярно синхронизируйте 
с владельцами компонента 
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Безопасный КР5 


e Зафиксируйте и регулярно синхронизируйте 
с владельцами компонента 


e Если управляющий контур долго не может 
принять решение - уходите на безопасный 
КР5 
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Безопасный КР5 
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Зафиксируйте и регулярно синхронизируйте 
с владельцами компонента 


Если управляющий контур долго не может 
принять решение – уходите на безопасный 
RPS 


«Долго» - индивидуально для каждого 
компонента 
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Максимальный КР5 


е Зафиксируйте для каждого тестируемого 
компонента КР5, выше которого не нужно 
пытаться увеличить число № 
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Журналы/логи 


ТА Нен оа9 
101 Ç) Heroo 


Журналы/логи 


e На нагруженном инстансе логи съедят все 
место 
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Журналы/логи 


e На нагруженном инстансе логи съедят все 
место 


e Пишите их буферизовано и лучше сразу в 
сеть 
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Сеть 


• Типовой SLA по доступности даже для 
локальнои сети - 9990. Вероятнее всего, вам 
не нужен SLO выше, чем 99 перцентиль. 
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Как разбираться с деградациями 


ТА Нен оаднн 
HL не До 


Как разбираться с деградациями 


е Завести таймлайн с релизами различных 
компонентов и включением экспериментов 


ТА Нен сас 
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Как разбираться с деградациями 


е Завести таймлайн с релизами различных 
компонентов и включением экспериментов 


e Очень помогает трассировка по логам 
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Всем точных прогнозов! 


Максим Куприянов 


SRE 
Яндекс Маркет 


maxk@yandex-team.ru 
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